f#/DE 99/01 3 23 

BUNDESREPUBLI K DE UTSCHLAj^g Q 0l 



PRIORITY 
DOCUMENT 

SUBMITTED OR TRANSMITTED FN 
COMPLIANCE WITH RULE 17. 1(a) OR (b) 





Bescheinigung 




Die Siemens Aktiengesellschaft in Munchen/Deutschland hat eine Patentanmeldung 
unter der Bezeichnung 

"Anordnung und Verfahren zur Erkennung eines vorgegebenen Wortschatzes in 
gesprochener Sprache durch einen Rechner" 



am 11. Mai 1998 beim Deutschen Patent- und Markenamt eingereicht. 



Die angehefteten Stucke sind eine richtige und genaue Wiedergabe der ursprung- 
lichen Unterlagen dieser Patentanmeldung. 

Die Anmeldung hat im Deutschen Patent- und Markenamt vorlaufig das Symbol 
G 10 L 5/06 der Internationalen Patentklassifikation erhalten. 




GR 98 P 1687 



Beschreibung 




Anordnung und Verfahren zur Erkennung eines vorgegebenen 
Wortschatzes in gesprochener Sprache durch einen Rechner 

Die Erfindung betrifft eine Anordnung und ein Verfahren zur 
Erkennung eines vorgegebenen Wortschatzes in gesprochener 
Sprache durch einen Rechner. 

Ein Verfahren und eine Anordnung zur Erkennung gesprochener 
Sprache sind aus [1] bekannt. Bei der Erkennung gesprochener 
Sprache werden, insbesondere bis zum Erhalt einer erkannten 
Wortfolge aus einem digitalisierten Sprachsignal , eine 
Signalanalyse und eine globale Suche, die auf ein akustisches 
Modell und ein linguistisches Modell der zu erkennenden 
Sprache zuriickgreif t , durchgef uhrt . Ein akustisches Modell 
basiert auf einem Phoneminventar , das anhand von Hidden- 
Markov-Modellen (HMMs) realisiert ist. Wahrend der globalen 
Suche werden fur Merkmalsvektoren, die aus der Signalanalyse 
hervorgegangen sind, mit Hilfe des akustischen Modells eine 
passende Wortfolge ermittelt und diese als erkannte Wortfolge 
ausgegeben. Die zu erkennenden Worter sind in einem 
Aussprachelexikon zusammen mit einer phonetischen Umschrift 
abgespeichert . Der Zusammenhang ist ausfiihrlich in [1] 
dargestellt . 

Zur Erlauterung der nachf olgenden Ausfiihrungen wird an dieser 
Stelle kurz auf die verwendeten Begriffe eingegangen. 

Die Signalanalyse als Phase der computerbasierten 
Spracherkennung umfafit insbesondere eine 

Fouriertransf ormation des digitalisierten Sprachsignals und 
eine sich daran anschlieliende Merkmalsextraktion . Aus [1] 
geht hervor, dali die Signalanalyse alle zehn Millisekunden 
erfolgt. Aus sich uberlappenden Zeitabschnitten mit einer 
Dauer von z.B. jeweils 25 Millisekunden werden anhand der 
Signalanalyse ungefahr 30 Merkmale ermittelt und zu einem 
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Merkmalsvektor zusammengef afit . Die Komponenten des 
Merkmalsvektors beschreiben die spektrale Energieverteilung 
des zugehorigen Signalausschnitts . Urn diese Energieverteilung 
zu erhalten, wird auf jedem Signalabschnitt (25ms- 
5 Zeitabschnitt) eine Fouriertrans formation durchgef iihrt . Aus 
der Darstellung des Signals im Frequenzbereich resultieren 
die Komponenten des Merkmalsvektors. Nach der Signalanalyse 
liegt das digitalisierte Sprachsignal in Form von 
Merkmalsvektoren vor. 

10 

Diese Merkmalsvektoren werden der globalen Suche , einer 
weiteren Phase der Spracherkennung, zugef iihrt. Wie bereits 
erwahnt, bedient sich die globale Suche des akustischen 
Modells und ggf . des linguistischen Modells, um die Folge von 

15 Merkmalsvektoren auf Einzelteile der als Modell vorliegenden 
Sprache (Vokabular) abzubilden. Eine Sprache setzt sich aus 
einer vorgegebenen Anzahl vom Lauten, sog.^ Phonemen, 
zusammen, deren Gesamtheit als Phoneminventar bezeichnet 
wird. Das Vokabular wird durch Phonemfolgen modelliert und in 

20 einem Aussprachelexikon abgespeichert . Jedes Phonem wird 
durch mindestens ein HMM modelliert. Mehrere HMMs ergeben 
einen stochastischen Automaten, der Zustande und 
Zustandslibergange (Transi tionen) umfafit. Mit HMMs laBt sich 
der zeitliche Ablauf des Auftretens bestimmter 

25 Merkmalsvektoren (selbst innerhalb eines Phonems) 

modellieren. Ein entsprechendes Phonem-Modell urn fa Jit dabei 
eine vorgegebene Anzahl von Zustanden, die linear 
hintereinander angeordnet sind. Ein Zustand eines HMMs stellt 
einen Teil eines Phonems (bspw. mit einer Dauer von 10ms) 

30 dar. Jeder Zustand ist verknupft mit einer 

Emissionswahrscheinlichkeit , die insbesondere nach GauB 
verteilt ist, fur die Merkmalsvektoren und mit 
Transitionswahrscheinlichkeiten fur die moglichen Ubergange. 
Mit der Emissionsverteilung wird einem Merkmalsvektor eine 

35 Wahrscheinlichkeit zugeordnet, mit der dieser Merkmalsvektor 
in einem zugehorigen Zustand beobachtet wird. Die moglichen 
Ubergange sind ein direkter Obergang von einem Zustand in 
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einen nachsten Zustand, ein Wiederholen des Zustands und ein 
Oberspringen des Zustands. 

Eine Aneinanderreihung von HMM-Zustande mit den zugehorigen 
Obergangen uber die Zeit wird als Trellis bezeichnet. Urn die 
akustische Wahrscheinlichkeit eines Wortes zu bestimmen, 
verwendet man insbesondere das Prinzip der dynamischen 
Programmierung : Es wird der Pfad durch die Trellis gesucht, 
der den geringsten Fehler aufweist bzw. der durch die grofite 
Wahrscheinlichkeit fur ein zu erkennendes Wort bestimmt ist. 

Das Ergebnis der globalen Suche ist die Ausgabe bzw. 
Bereitstellung einer erkannten Wortfolge, die sich unter 
Berucksichtigung des akustischen Modells (Phoneminventar ) ftir 
jedes einzelne Wort und des Sprachmodells fur die Abfolge von 
Wortern ergibt . 

Aus [2] ist ein Verfahren zur Sprecheradaption, basierend auf 
einer MAP-Schat zung (MAP = maximum a posteriori) von HMM- 
Parametern bekannt. 

So ist es laut [2] anerkannt, da!3 ein sprecherabhangiges 
System zur Spracherkennung normalerweise bessere Ergebnisse 
als ein sprecherunabhangiges System liefert, sofern 
ausreichend Trainingsdaten verfugbar sind, die eine 
Modellierung des sprecherabhangigen Systems ermoglichen. 
Sobald jedoch die Menge der sprecherspezif ischen 
Trainingsdaten beschrankt ist, erreicht das 
sprecherunabhangige System die besseren Resultate. Eine 
Moglichkeit zur Leistungssteigerung beider Systeme, also 
sowohl des sprecherabhangigen als auch des 

sprecherunabhangigen Systems zur Spracherkennung, besteht 
darin, die vorab gespeicherten Datensatze mehrerer Sprecher, 
derart zu benutzen, daft auch eine kleine Menge Trainingsdaten 
ausreicht, urn einen neuen Sprecher in ausreichender Qualitat 
zu modellieren. Solch ein Trainingsver f ahren wird 
Sprecheradaption genannt. In [2] wird insbesondere die 
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Sprecheradaption durch eine MAP-Schat zung der Hidden-Markov- 
Modell-Parameter durchgef uhrt . 

Generell verschlechtern sich Ergebnisse eines Verfahrens zur 
5 Erkennung gesprochener Sprache, sobald charakteristische 
Merkmale der gesprochenen Sprache von charakteristischen 
Merkmalen der Trainingsdaten abweichen. Beispiele fiir 
charakteristische Merkmale sind Sprechereigenschaf ten oder 
akustische Kontexte, die sich in Form von Verschleif ungen auf 
10 die Artikulation der Phoneme auswirken. 

Der in [2] verfolgte Ansatz zur Sprecheradaption besteht 
darin, Parameterwerte der Hidden-Markov-Modelle 
"nachzuschatzen", wobei diese nach Verarbeitung "offline", 
15 d.h. nicht zur Laufzeit des Verfahrens zur Spracherkennung, 
durchgef uhrt wird . 

Die Aufgabe der Erfindung besteht darin, eine Anordnung und 
ein Verfahren zur Erkennung eines vorgegebenen Wortschatzes 
20 in gesprochener Sprache anzugeben, wobei insbesondere eine 
Anpassung des akustischen Modells zur Laufzeit (also 
"Online") vollzogen wird. 

Diese Aufgabe wird gemaft den Merkmalen der unabhangigen 
25 Patentanspriiche gelost. 

Zur Losung der Aufgabe wird ein Verfahren zur Erkennung eines 
vorgegebenen Wortschatzes in gesprochener Sprache durch einen 
Rechner angegeben, in dem aus der gesprochenen Sprache ein 

30 Sprachsignal bestimmt wird. Das Sprachsignal wird einer 
Signalanalyse unterworfen, woraus Merkmalsvektoren zur 
Beschreibung des digi talisierten Sprachsignals hervorgehen. 
Eine globale Suche wird zur Abbildung der Merkmalsvektoren 
auf eine in modellierter Form vorliegende Sprache 

35 durchgefiihrt , wobei jedes Phonem der Sprache durch ein 

modif iziertes Hidden-Markov-Modell und jeder Zustand des 
modif izierten Hidden-Markov-Modells durch eine 
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Wahrscheinlichkeitsdichtef unktion beschrieben wird . Es 
erfolgt eine Anpassung der Wahrscheinlichkeitsdichtef unktion 
derart, daft sie in eine erste Wahrscheinlichkei tsdichte- 
funktion und in eine zweite Wahrscheinlichkei tsdichtef unktion 
aufgespalten wird. Schlieftlich wird von der globalen Suche 
eine erkannte Wortfolge bereitgestellt . 

Hierbei sei angemerkt , daft die Wahrscheinlichkeitsdichte- 
funktion, die in eine erste und in eine zweite 
Wahrscheinlichkeitsdichtef unktion aufgespalten wird, eine 
Emissionsverteilung fur einen vorgegebenen Zustand des 
modif izierten Hidden-Markov-Modells darstellen kann, wobei 
diese Emissionsverteilung auch eine Oberlagerung mehrerer 
Wahrscheinlichkeitsdichtef unktionen, z . B . Gauft-Kurven 
(Gaufi'sche Wahrscheinlichkeitsdichteverteilungen) , enthalten 
kann . 

Eine erkannte Wortfolge kann dabei auch einzelne Lauten bzw. 
nur ein einzelnes Wort umfassen. 

Sollte im Rahmen der globalen Suche eine Erkennung mit einem 
hohen Wert fur den Abstand zwischen gesprochener Sprache und 
von der globalen Suche ermittelten dazugehoriger Wortfolge 
behaftet sein, so kann die Zuordnung eines Nullwortes 
erfolgen, welches Nullwort anzeigt, das die gesprochene 
Sprache nicht mit ausreichender Glite erkannt wird. 

Es ist ein Vorteil der Erfindung, durch die Aufspaltung der 
Wahrscheinlichkeitsdichtef unktion in einem durch die 
Merkmalsvektoren auf gespannten Merkmalsraum neue Bereiche zu 
schaffen, die signifikante Information in Bezug auf die zu 
erkennenden digi talisierten Sprachdaten aufweisen und damit 
eine verbesserte Erkennung zu gewahrleisten . 

Eine Ausgestaltung besteht darin, daft die 

Wahrscheinlichkeitsdichtef unktion in die erste und in die 
zweite Wahrscheinlichkeitsdichtef unktion aufgespalten wird, 
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falls der Abfall eines Entropiewertes unterhalb einer 
vorgegebenen Schranke liegt. 

Die Aufspaltung der Wahrscheinlichkei tsdichtef unktion in 
5 Abhangigkeit von einem Entropiewert erweist sich in der 
Praxis als aufterst vorteilhaft. 

Die Entropie ist allgemein ein MaB fur eine Unsicherheit bei 
einer Vorhersage eines s tatistischen Ereignisses. Die 
10 Entropie ist insbesondere mathematisch bestimmbar fur Gaufl- 
Verteilungen, wobei eine direkte logarithmische Abhangigkeit 
zwischen der Streuung a und der Entropie besteht. 

Eine andere Ausges taltung der Erfindung besteht darin, dafi 
15 die Wahrscheinlichkeitsdichtefunktionen, insbesondere die 
erste und die zweite Wahrscheinlichkei tsdichtef unktion 
jeweils mindestens eine Gauii-Verteilung umfassen. 

Die Wahrscheinlichkeitsdichtef unktion des Zustandes wird 
20 durch eine Summe mehrerer Gauiiverteilungen angenahert. Die 
einzelnen Gauiiverteilungen werden Moden genannt . Bei dem 
vorgestellten Verfahren werden die Moden insbesondere 
isoliert voneinander betrachtet. Bei jedem einzelnen 
Auf spaltvorgang wird eine Mode in zwei Moden aufgeteilt. Wenn 
25 die Wahrscheinlichkei tsdichtef unktion aus M Moden gebildet 
wurde, so wird sie nach dem Auf spaltvorgang aus M+l Moden 
gebildet. Wird eine Mode beispielsweise als eine 
Gaufiverteilung angenommen, so kann eine Entropie berechnet 
werden, wie im Aus f lihrungsbeispiel gezeigt wird. 

30 

Eine Online-Adaption ist deshalb vorteilhaft, weil das 
Verfahren nach wie vor Sprache erkennt, ohne in einer 
gesonderten Trainingsphase auf die Veranderung des 
Wortschatzes eingestellt werden zu mlissen. Es erfolgt eine 
35 Selbstadaption, die insbesondere notwendig wird durch eine 
veranderte Koartikulation der Sprecher aufgrund eines 
Hinzufugens eines neuen Wortes. 
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Die Online-Adaption erfordert demnach keine gesonderte 
Berechnung der Wahrscheinlichkeitsdichtef unktionen, die 
wiederum fiir eine Nicht-Verf ugbarkeit des Systems zur 
Spracherkennung verantwortlich ware. 

Eine Weiterbildung der Erfindung besteht darin, daft fur die 
erste Wahrscheinlichkeitsdichtef unktion und fiir die zweite 
Wahrscheinl ichkei tsdichtef unktion gleiche 

Standardabweichungen bestimmt werden. Ein erster Mittelwert 
der ersten Wahrscheinlichkeitsdichtef unktion und ein zweiter 
Mittelwert der zwei ten Wahrscheinlichkeitsdichtef unktion 
werden derart bestimmt, daft der erste Mittelwert von dem 
zweiten Mittelwert verschieden ist. 

Dies ist ein Beispiel fur die Gewichtung der aus der 
Wahrscheinlichkeitsdichtef unktion auf gespaltenen ersten und 
zweiten Wahrscheinlichkeitsdichtef unktion . Es sind auch 
beliebig andere Gewichtungen vorstellbar, die auf den 
jeweiligen Anwendungsf all anzupassen sind. 

Schlieftlich ist es eine Weiterbildung, daft das Verfahren 
mehrfach hintereinander durchgefiihrt wird und somit eine 
wiederholte Auf spaltung . der Wahrscheinlichkeitsdichtef unktion 
erf olgt . 

Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Anspriichen . 

Eine andere Losung der Aufgabe besteht darin, eine Anordnung 
mit einer Prozessoreinhei t anzugeben, welche Prozessoreinheit 
derart eingerichtet ist, daft folgende Schritte durchflihrbar 
sind: 

a) aus der gesprochenen Sprache wird ein digitalisiertes 
Sprachsignal bestimmt; , 
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b) auf dem digi talisierten Sprachsignal erfolgt eine 
Signalanalyse, woraus Merkmalsvektoren zur 
Beschreibung des digitalisierten Sprachsignals 
hervorgehen; 

5 c) eine globale Suche zur Abbildung der Merkmalsvektoren 

erfolgt auf eine in modellierter Form vorliegende 
Sprache, wobei Phoneme der Sprache durch ein 
modif iziertes Hidden-Markov-Modell und jeder Zustand 
des Hidden-Markov-Modells durch eine 
10 Wahrscheinlichkeitsdichtefunktion beschreibbar ist; 

d) die wird Wahrscheinlichkeitsdichtef unktion durch 
Veranderung des Wortschatzes angepafit, indem die 
Wahrscheinlichkeitsdichtef unktion in eine erste 
Wahrscheinlichkeitsdichtef unktion und in eine zweite 

15 Wahrscheinlichkeitsdichtef unktion aufgespalten wird; 

e) von der globalen Suche wird eine erkannte Wortfolge 
bereitgestellt . 



Diese Anordnung ist insbesondere geeignet zur Durchfuhrung 
2 0 des erf indungsgemaBen Verfahrens Oder einer seiner vorstehend 
erlauterten Weiterbildungen . 

Ausfuhrungsbeispiele der Erfindung werden nachfolgend anhand 
der Zeichnung dargestellt und erlautert. 

25 

Es zeigt 



Fig.l eine Anordnung bzw. ein Verfahren zur Erkennung 
gesprochener Sprache . 

30 

In Figur 1 sind eine Anordnung bzw. ein Verfahren zur 
Erkennung gesprochener Sprache dargestellt. Zur Erlauterung 
der nachstehend verwendeten Begriffe sei auf die 
Beschreibungseinleitung verwiesen . 

35 

Ein digitalisiertes Sprachsignal 101 wird in einer 
Signalanalyse 102 einer Fouriertransf ormation 103 mit 
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anschlieBender Merkmalsextraktion 104 unterzogen. Die 
Merkmalsvektoren 105 werden an ein System zur globalen Suche 
106 ubermittelt . Die globale Suche 106 berticksichtigt sowohl 
ein akustisches Modell 107 als auch ein linguistisches Modell 
108 zur Bestimmung der erkannten Wortfolge 109. Aus dem 
digitalisierten Sprachsignal 101 geht somit die erkannte 
Wortfolge 109 hervor. 

In dem akustischen Modell 107 wird das Phoneminventar anhand 
von Hidden-Markov-Modellen nachgebildet . 

Eine Wahrscheinlichkei tsdichtef unktion eines Zustands des 
Hidden-Markov-Modells wird durch eine Auf summierung einzelner 
Gaufischer Moden angenahert. Eine Mode ist insbesondere eine 
Gauflglocke . Durch Auf summierung mehrerer Moden entsteht eine 
Mischung einzelner Gauflglocken und damit eine Modellierung 
der Emissions wahrscheinlichkei tsdichtef unktion . Anhand eines 
statistischen Kriteriums wird entschieden, ob der zu 
erkennende Wortschatz des Spracherkenners durch das 
Hinzufugen weiterer Moden verbessert modelliert werden kann. 
Im Fall der vorliegenden Erfindung wird dies insbesondere bei 
Erfullung des statistischen Kriteriums durch inkrementelles 
Aufspalten bereits existierender Moden erreicht. 

Die Entropie ist definiert durch 

OO 

Hp = - J p(x) log2 p(x) dx (1) 
— oo 

unter der Annahme, dali p(x) eine Gaufl-Verteilung mit einer 
diagonalen Kovarianzmatrix ist, also 



p(x) = <jv(\i, a n ) = r^—— YT 1 * ex P 



_ 1 s l x n ^n) 



2 n a 2 

a n J 



(2) 



GR 98 P 1687 



10 



erhalt man 



N 



P 



Z log2 V27te a 
n = l 



n 



(3) 



wobei 



den Erwartungswert, 

die Streuung fur jede Komponente n und 



N 



die Dimension des Merkmalsraums 



bezeichnen . 

Die wahre Verteilung p(x) ist nicht bekannt. Sie wird 

insbesondere als Gauliverteilung angenommen . Im akustischen 
Modell wird die Wahrscheinlichkeit p(x) anhand von 

Stichproben angenahert mit 



einen Mittelwert uber L Beobachtungen darstellt. Die 
korrespondierende Entropie als Funktion von |ll ist gegeben 

durch 




wobei 



A = 7 Z 5 1 



00 




(4) 



— oo 



was schlielilich zu 



Hp(a) = Hp + x 




log2 Ve 



(5) 
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f uhrt . 

Der Erwartungswert Ej(|i n - £ n ) 2 J betragt ~ a n ' so dafil der 
Erwartungswert von Hp((l) gegeben ist als 



Hp = e{h£(£)} = Hp + ~ log 2 



(6) 



Fur die Entropie einer Mode, die mit einer Gaufi-Verteilung 
mit einer diagonalen Kovarianzmatrix bestimmt wird, ergibt 
sich also Gleichung (3). Der Prozeft wird nun mit einer 
Schatzung angenahert . Die Entropie des angenaherten Prozesses 
ergibt sich zu 

N r- 

H,= H + — log 2 Ve (7) . 

V ^ 

Je grofier die Anzahl L der Stichproben ist, urn so besser wird 
die Abschatzung und urn so mehr nahert sich die geschatzte 
Entropie H der wahren Entropie H an. 

Es soil nun 

p(x) = o n ) ( 8 ) 

die auf zuteilende Mode sein. Ferner wird angenommen, daft die 
zwei Gaufl-Verteilungen, die durch den Auf teilungsprozeli 
entstehen, identische Standardabweichungen a s haben und 
gleich gewichtet sind. Dies ergibt 

P S (x) = \ JY^\, o s ) + \ JV^>, a s ) (9) . 

Unter der Annahme, dafl m ~ , M-2 ~ M-2 unc * dafi M-l 
ausreichend weit entfernt von \i2 ist, ergibt sich die 
Entropie der auf gespaltenen Wahrscheinlichkeitsdichtef unktion 
jeweils zu 
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it . „lf i— N r- N , 

H s = 1 - 2j log 2 V27te a n + - log 2 Ve — + log 2 Ve — | (10) 



n = l 



Lx ^ L 2 



Als Auf teilungskriterium wird eine Verminderung der Entropie 
5 durch den Auf spaltungsvorgang gefordert, also 

H — H s > C (11) , 

wobei C (mit C > 0) eine Konstante ist, die den gewiinschten 
10 Abfall der Entropie darstellt. Wird 

- = L]_ = L 2 (12) 



angenommen, so ergibt sich hierdurch 

15 

Z N a n #— N 

log 2 — — > log 2 Ve — + 1 + C (13) . 

n=l CT n L 

Eine Moglichkeit, die Lage der Mittelpunkte der beiden neuen 
Moden zu bestimmen, wird im folgenden auf gezeigt. Eine 
2 0 bevorzugte Vorgabe besteht darin, daB Kriterium zum 

Aufspalten zu erfullen. In dem angefiihrten Beispiel wird {if 
der Wert von \x zugewiesen. (J.2 erhalt eine Maximum- 

Likelihood-Schatzung derjenigen Beobachtungen, die im 
Viterbi-Pfad auf fi abgebildet werden. Diese Bestimmungen 

25 zeigen lediglich eine Moglichkeit auf, ohne da£ eine 
Einschrankung des vorgestellten Verf ahrens auf diese 
Moglichkeit beabsichtigt ist. 

Die folgenden Schritte der Beispielanwendung zeigen die 
30 Einbettung in eine Anordnung zur Spracherkennung bzw. ein 
Verfahren zur Spracherkennung. 

Schritt 1: Initialisierung : \±f = jl , jl^ = jl . 
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Schritt 2: Erkennen der Aufierung , Analysieren des 
Viterbi-Pf ads; 

Schritt 3: Fur jeden Zustand und fur jede Mode des 
Viterbi-Pf ades : 



Schritt 3.1: Bestimme a n 



Schritt 3.2: Bestimme L2 auf Grundlage derjenigen 

Beobachtungen, die naher an jlf als an \±f 
liegen und setze L = L2 . Falls jll und jlf 
identisch sind, so ordne die zweite 
Halfte der Merkmalsvektoren jl^ und die 
erste Halfte der Merkmalsvektoren jaj zu. 



Schritt 3.3: Bestimme entsprechend auf Grundlage 

der L2~Aufierungen; 



Schritt 3.4: Ermittle jlf neu auf Grundlage des 



Mittelwerts derjenigen Beobachtungen, die 
naher an jl| als an \xf liegen; 



Schritt 3.5: Werte Auf teilungskri terium nach 
Gleichung (13) aus; 

Schritt 3.6: Falls Auf teilungskriterium nach 

Gleichung (13) positiv ist, generiere 
zwei neue Moden mit den Mittelpunkten jl^ 
und jlf * 



Schritt 4: Gehe zu Schritt 2. 
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Im Rahmen dieses Dokuments wurden folgende Verof f entlichungen 
zitiert : 

[1] N. Haberland et al.: "Sprachunterricht - Wie funktioniert 
die computerbasierte Spracherkennung? " , c't - Magazin fur 
5 Computertechnik - 5/1998, Heinz Heise Verlag, Hannover, 

1998, Seiten 120 bis 125. 

[2] C. H. Lee et al . : "Speaker Adaptation Based on MAP 
Estimation of HMM Parameters"; Proc. IEEE Intern. 
Conference on Acoustics, Speech and Signal Processing, 
10 Seiten 11-588 bis 11-561. 
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Patentanspruche 

1. Verfahren zur Erkennung eines vorgegebenen Wortschatzes 
in gesprochener Sprache durch einen Rechner, 

a) bei dem aus der gesprochenen Sprache ein 
digi talisiertes Sprachsignal bestimmt wird, 

b) bei dem auf dem digitalisierten Sprachsignal eine 
Signalanalyse durchgefiihrt wird, woraus 
Merkmalsvektoren zur Beschreibung des digitalisierten 
Sprachsignals hervorgehen, 

c) bei dem eine globale Suche zur Abbildung der 
Merkmalsvektoren auf eine in modellierter Form 
vorliegende Sprache durchgefiihrt wird, wobei Phoneme 
der Sprache durch ein modif iziertes Hidden-Markov- 
Modell und jeder Zustand des Hidden-Markov-Modells 
durch eine Wahrscheinlichkeitsdichtef unktion 
beschrieben wird, 

d) bei dem die Wahrscheinlichkeitsdichtef unktion durch 
Veranderung des Wortschatzes angepaftt wird, indem die 
Wahrscheinlichkeitsdichtef unktion in eine erste 
Wahrscheinlichkeitsdichtef unktion und in eine zweite 
Wahrscheinlichkeitsdichtef unktion auf ge spa It en wird, 

e) bei dem von der globalen Suche eine erkannte Wortfolge 
bereitgestellt wird. 

2. Verfahren nach Anspruch 1, 

bei dem die Wahrscheinlichkeitsdichtef unktion in die 
erste und in die zweite Wahrscheinlichkeitsdichtef unktion 
aufgespalten wird, falls der Abfall eines Entropiewertes 
unterhalb einer vorgegebenen Schranke liegt. 

3. Verfahren nach Anspruch 1 oder 2, 

bei dem die Veranderung des Wortschatzes zur Laufzeit des 
Verfahrens durchgefiihrt wird. 

4. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem die Veranderung des Wortschatzes bedingt ist 
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durch Hinzufiigen eines Wortes zum Wortschatz oder bei dem 
sich Aussprachegewohnheiten eines Sprechers andern. 

Verfahren nach einem der vorhergehenden Anspriiche, 
bei dem die erste Wahrscheinlichkei tsdichtef unktion und 
die zweite Wahrscheinlichkeitsdichtef unktion jeweils 
mindestens eine GauUverteilung umfassen* 

Verfahren nach Anspruch 5, 

bei dem fur die erste Wahrscheinlichkei tsdichtef unktion 
und fur die zweite Wahrscheinlichkeitsdichtef unktion 
gleiche S t andar dabwe i chungen , ein erster Mittelwert der 
ersten Wahrscheinlichkeitsdichtef unktion und ein zweiter 
Mittelwert der zweiten Wahrscheinlichkeitsdichtef unktion 
ermittelt werden, wobei der erste Mittelwert von dem 
zweiten Mittelwert verschieden ist. 

Verfahren nach einem der vorhergehenden Anspriiche, 
bei dem die Aufspaltung mehrfach durchgefuhrt wird. 

Anordnung zur Erkennung eines vorgegebenen Wortschatzes 
in gesprochener Sprache mit einer Prozessoreinheit , die 
derart eingerichtet 1st, daft 

a) aus der gesprochenen Sprache ein digitalisiertes 
Sprachsignal bestimmbar ist, 

b) auf dem digitalisierten Sprachsignal eine 
Signalanalyse durchftihrbar ist, woraus 

Merkmalsvektoren zur Beschreibung des digitalisierten 
Sprachsignals hervorgehen, 

c) eine globale Suche zur Abbildung der Merkmalsvektoren 
auf eine in modellierter Form vorliegende Sprache 
erfolgt, wobei Phoneme der Sprache durch ein 
modif iziertes Hidden-Markov-Modell und jeder Zustand 
des Hidden-Markov-Modells durch eine 

Wahrscheinlichkeitsdichtefunktion beschreibbar ist, 
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d) die Wahrscheinlichkei tsdichtef unktion durch 
Veranderung des Wortschatzes angepaflt wird, indent die 
Wahrscheinlichkeitsdichtefunktion in eine erste 
Wahrscheinlichkeitsdichtef unktion und in eine zweite 
Wahrscheinlichkei tsdichtef unktion auf ge spa It en wird, 

e) von der globalen Suche eine erkannte Wortfolge 
berei tgestellt wird. 
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Zusammenf as sung 

Anordnung und Verfahren zur Erkennung eines vorgegebenen 
Wortschatzes in gesprochener Sprache durch einen Rechner 

5 

Bei der Spracherkennung werden Phoneme einer Sprache durch 
ein Hidden-Markov-Modell modelliert, wobei jeder Zustand des 
Hidden-Markov-Modells durch eine 

Wahrscheinlichkeitsdichtefunktion beschrieben wird. Zur 
10 Spracherkennung eines veranderten Wortschatzes wird die 
Wahrscheinlichkeitsdichtefunktion in eine erste und eine 
zweite Wahrscheinlichkeitsdichtef unktion auf gespal ten . 
Dadurch wird es moglich, Veranderungen der Sprachgewohnheit 
eines Sprechers zu kompensieren oder ein neues Wort dem 
15 Wortschatz des Spracherkenners hinzuzufiigen und dabei 

sicherzustellen, dafi dieses neue Wort mit ausreichender Gute 
von den bereits im Spracherkenner vorhandenen Wortern 
unterschieden und somit erkannt wird. 

20 Figur 1 



